该底漆是为了提供终身学习不同方面的详细摘要。我们从第2章开始,该第2章提供了终身学习系统的高级概述。在本章中,我们讨论了终身学习中的突出场景(第2.4节),提供8介绍,一个由不同终身学习方法组成的高级组织(第2.5节),列举Desiderata为理想的终身学习系统(第2.6节),讨论如何讨论如何讨论终身学习与其他学习范式有关(第2.7节),描述用于评估终身学习系统的常见指标(第2.8节)。对于那些毕生学习并希望在不关注特定方法或基准的读者中,本章更有用。
translated by 谷歌翻译
近年来,已经引入了越来越多的基于模型的强化学习(RL)方法。鉴于其许多潜在的好处,例如更高的样本效率和快速适应环境变化的潜力,对基于深层模型的RL的兴趣并不奇怪。但是,我们证明,使用最近引入的本地变化适应(LOCA)设置的改进版本,众所周知的基于模型的方法(例如Planet和Dreamerv2)在适应本地环境变化的能力方面表现不佳。结合先前的工作,对其他基于模型的方法Muzero进行了类似的观察,似乎出现了一种趋势,这表明当前基于深层模型的方法具有严重的局限性。我们通过识别损害适应性行为并将其与经常在基于DEEP模型的RL中经常使用的基础技术联系起来的元素,深入研究这种绩效不佳的原因。在线性函数近似的情况下,我们通过证明了线性DyNA的修改版本实现有效适应局部变化,从而验证了这些见解。此外,我们通过实验非线性版本的DYNA来提供详细的见解,以了解构建基于自适应非线性模型方法的挑战。
translated by 谷歌翻译